4 research outputs found
Multimodal perception for autonomous driving
Mención Internacional en el tÃtulo de doctorAutonomous driving is set to play an important role among intelligent
transportation systems in the coming decades. The advantages
of its large-scale implementation –reduced accidents, shorter commuting
times, or higher fuel efficiency– have made its development a priority
for academia and industry. However, there is still a long way to
go to achieve full self-driving vehicles, capable of dealing with any
scenario without human intervention. To this end, advances in control,
navigation and, especially, environment perception technologies
are yet required. In particular, the detection of other road users that
may interfere with the vehicle’s trajectory is a key element, since it
allows to model the current traffic situation and, thus, to make decisions
accordingly.
The objective of this thesis is to provide solutions to some of
the main challenges of on-board perception systems, such as extrinsic
calibration of sensors, object detection, and deployment on
real platforms. First, a calibration method for obtaining the relative
transformation between pairs of sensors is introduced, eliminating
the complex manual adjustment of these parameters. The algorithm
makes use of an original calibration pattern and supports LiDARs,
and monocular and stereo cameras. Second, different deep learning
models for 3D object detection using LiDAR data in its bird’s eye
view projection are presented. Through a novel encoding, the use
of architectures tailored to image detection is proposed to process
the 3D information of point clouds in real time. Furthermore, the
effectiveness of using this projection together with image features is
analyzed. Finally, a method to mitigate the accuracy drop of LiDARbased
detection networks when deployed in ad-hoc configurations is
introduced. For this purpose, the simulation of virtual signals mimicking
the specifications of the desired real device is used to generate
new annotated datasets that can be used to train the models.
The performance of the proposed methods is evaluated against
other existing alternatives using reference benchmarks in the field of
computer vision (KITTI and nuScenes) and through experiments in
open traffic with an automated vehicle. The results obtained demonstrate
the relevance of the presented work and its suitability for commercial
use.La conducción autónoma está llamada a jugar un papel importante en
los sistemas inteligentes de transporte de las próximas décadas. Las
ventajas de su implementación a larga escala –disminución de accidentes,
reducción del tiempo de trayecto, u optimización del consumo–
han convertido su desarrollo en una prioridad para la academia y
la industria. Sin embargo, todavÃa hay un largo camino por delante
hasta alcanzar una automatización total, capaz de enfrentarse a cualquier
escenario sin intervención humana. Para ello, aún se requieren
avances en las tecnologÃas de control, navegación y, especialmente,
percepción del entorno. Concretamente, la detección de otros usuarios
de la carretera que puedan interferir en la trayectoria del vehÃculo
es una pieza fundamental para conseguirlo, puesto que permite modelar
el estado actual del tráfico y tomar decisiones en consecuencia.
El objetivo de esta tesis es aportar soluciones a algunos de los
principales retos de los sistemas de percepción embarcados, como
la calibración extrÃnseca de los sensores, la detección de objetos, y su
despliegue en plataformas reales. En primer lugar, se introduce un
método para la obtención de la transformación relativa entre pares
de sensores, eliminando el complejo ajuste manual de estos parámetros.
El algoritmo hace uso de un patrón de calibración propio y da
soporte a cámaras monoculares, estéreo, y LiDAR. En segundo lugar,
se presentan diferentes modelos de aprendizaje profundo para la detección
de objectos en 3D utilizando datos de escáneres LiDAR en su
proyección en vista de pájaro. A través de una nueva codificación, se
propone la utilización de arquitecturas de detección en imagen para
procesar en tiempo real la información tridimensional de las nubes
de puntos. Además, se analiza la efectividad del uso de esta proyección
junto con caracterÃsticas procedentes de imágenes. Por último,
se introduce un método para mitigar la pérdida de precisión de las
redes de detección basadas en LiDAR cuando son desplegadas en
configuraciones ad-hoc. Para ello, se plantea la simulación de señales
virtuales con las caracterÃsticas del modelo real que se quiere utilizar,
generando asà nuevos conjuntos anotados para entrenar los modelos.
El rendimiento de los métodos propuestos es evaluado frente a
otras alternativas existentes haciendo uso de bases de datos de referencia
en el campo de la visión por computador (KITTI y nuScenes),
y mediante experimentos en tráfico abierto empleando un vehÃculo
automatizado. Los resultados obtenidos demuestran la relevancia de
los trabajos presentados y su viabilidad para un uso comercial.Programa de Doctorado en IngenierÃa Eléctrica, Electrónica y Automática por la Universidad Carlos III de MadridPresidente: Jesús GarcÃa Herrero.- Secretario: Ignacio Parra Alonso.- Vocal: Gustavo Adolfo Peláez Coronad
Research, development and evaluation of a practical model for sentiment analysis
Sentiment Analysis is the task of extracting subjective information from input sources
coming from a speaker or writer. Usually it refers to identifying whether a text holds a
positive or negative polarity. The main approaches to carry out Sentiment Analysis are
lexicon or dictionary-based methods and machine learning schemes. Lexicon-based models
make use of a prede ned set of words, where each of the words composing the set has an
associated polarity. Document polarity will depend on the feature selection method, and how
their scores are combined. Machine-learning approaches usually rely on supervised classifiers.
Although classifiers offer adaptability for specific contexts, they need to be trained with huge
amounts of labelled data which may not be available, specially for upcoming topics.
This project, contrary to most scientific researches over this field, aims to go further in
emotion detection and puts its efforts on identifying the actual sentiment of documents,
instead of focusing on whether it may have a positive or negative connotation. The set of
sentiments used for this approach have been extracted from Plutchik's wheel of emotions,
which defines eight basic bipolar sentiments and another eight advanced emotions composed
of two basic ones. Moreover, in this project we have created a new scheme for SA combining
a lexicon-based model for getting term emotions and a statistical approach to identify the
most relevant topics in the document which are the targets of the sentiments. By taking this
approach we have tried to overcome the disadvantages of simple Bag-of-words models that
do not make any distinctions between parts of speech (POS) and weight all words commonly
using the tf-idf scheme which leads to overweight most frequently used words. Furthermore,
in order to improve knowledge, this projects presents a heuristic learning method that
allows improving initial knowledge by converging to human-like sensitivity.
In order to test proposed scheme's performance, an Android application for mobile devices
has been developed. This app allows users taking photos and introducing descriptions which
are processed and classi ed with emotions. Classi cation that may be corrected by the user
so that system performance statistics can be extracted.El Análisis de Sentimientos consiste en extraer información subjetiva de lenguaje escrito
u oral. Habitualmente se basa en identificar si un texto es positivo o negativo, es decir,
extraer su polaridad. Las principales formas de llevar a cabo el Análisis de Sentimientos son
los métodos basados en dictionarios y en aprendizaje automático. Los modelos basados en
léxicos hacen uso de un conjunto predefinido de palabras que tienen asociada una polaridad.
La polaridad del texto dependerá los elementos analizados y la forma en la que se combinan
sus valores. Las aproximaciones basadas en aprendizaje automático, por el contrario, normalmente
se apoyan en clasificadores supervisados. A pesar de que los claificadores ofrecen
adaptabilidad para contextos muy especÃficos, necesitan gran cantidad de datos para ser
entrenados no siempre disponibles, como por ejemplo en temas muy novedosos.
Este proyecto, al contrario que la mayorÃa de investigaciones en este campo, intenta ir
m as allá en la detección de emociones y pretende identificar los sentimientos del texto en
vez de centrarse en su polaridad. El conjunto de sentimientos usados para este proyecto
esrá basado en la Rueda de las Emociones de Plutchik, que define ocho sentimientos
básicos y ocho complejos formados por dos básicos. Además, en este proyecto se ha creado
un nuevo modelo de AS combinando léxicos para extraer las emociones de las palabras con
otro estadÃstico que trata de identificar los temas más importantes del texto. De esta forma,
se ha intentado superar las desventajas de los modelos Bag-of-words que no diferencian
entre clases de palabras y ponderan todas las palabras usando el esquema tf-idf, que
conlleva sobreponderar las palabras más usadas. Asimismo, para mejorar el conocimiento
del proyecto, se ha implementado un método de aprendizaje heurÃstico que permite mejorar
el conocimiento inicial para converger con la sensibilidad real de los humanos.
Para evaluar el rendimiento del modelo propuesto, una aplicación Android para móviles
ha sido desarrollada. Esta app permite a los usuarios tomar fotos e introducir descripciones
que son procesadas y clasificadas por emociones. Clasificación que puede ser corregida por
el usuario permitiendo asà extraer estadÃsticas del rendimiento del sistema.IngenierÃa Informátic
BirdNet+: two-stage 3D object detection in LiDAR through a sparsity-invariant bird's eye view
Autonomous navigation relies upon an accurate understanding of the elements in the surroundings. Among the different on-board perception tasks, 3D object detection allows the identification of dynamic objects that cannot be registered by maps, being key for safe navigation. Thus, it often requires the use of LiDAR data, which is able to faithfully represent the scene geometry. However, although raw laser point clouds contain rich features to perform object detection, more compact representations such as the bird's eye view (BEV) projection are usually preferred in order to meet the time requirements of the control loop. This paper presents an end-to-end object detection network based on the well-known Faster R-CNN architecture that uses BEV images as input to produce the final 3D boxes. Our regression branches can infer not only the axis-aligned bounding boxes but also the rotation angle, height, and elevation of the objects in the scene. The proposed network provides state-of-the-art results for car, pedestrian, and cyclist detection with a single forward pass when evaluated on the KITTI 3D Object Detection Benchmark, with an accuracy that exceeds 64% mAP 3D for the Moderate difficulty. Further experiments on the challenging nuScenes dataset show the generalizability of both the method and the proposed BEV representation against different LiDAR devices and across a wider set of object categories by being able to reach more than 30% mAP with a single LiDAR sweep and almost 40% mAP with the usual 10-sweep accumulation.This work was supported in part by the Government of Madrid (Comunidad de Madrid) under the Multiannual Agreement with the University Carlos III of Madrid (UC3M) in the line of "Fostering Young Doctors Research"(PEAVAUTO-CM-UC3M), and in part by the Context of the V Regional Programme of Research and Technological Innovation (PRICIT)
Autocalibración de parámetros extrÃnsecos de sistemas estéreo para aplicaciones de tráfico
Comunicación presentada en: XXXVII Jornadas de Automática, Madrid, 6 a 8 de septiembre de 2016En este artÃculo se presenta un método de autocalibración de los parámetros extrÃnsecos de un sistema estéreo en aplicaciones de tráfico. Dicho método se basa en determinar la geometrÃa de la calzada delante del veh´ıculo. Esta posición relativa varÃa considerablemente mientras el vehÃculo circula, por tanto, resulta de gran interés poder estimarla para su aplicación en múltiples aplicaciones basadas en visión por computador, tales como: sistemas avanzados de ayuda a la conducción, vehÃculos autónomos o robots. Estos continuos cambios en la posición del sistema estéreo se traducen en variaciones en los valores de los parámetros extrÃnsecos (altura, ángulo de cabeceo y ángulo de alabeo). La validación del método de autocalibración es realizada mediante el empleo de un algoritmo de odometrÃa visual, donde se evalúa la mejora en los resultados que supone conocer en todo momento el valor de los parámetros extrÃnsecos del sistema estéreo.Este trabajo ha sido parcialmente financiado por el Gobierno de España a través de los proyectos Cycit (TRA2013-48314-C3-1-R y TRA2015-63708-R) y por la Comunidad de Madrid a través del proyecto SEGVAUTO-TRIE S (S2013/MIT-2713)